Mimicking Word Embeddings using Subword RNNs

2017-10-31

这篇文章挺有意思的，在已有的word embeddings上学习一个从字符级别的序列上建立一个word embedding。模型使用的是RNN，双向的，输入是一个单词，输出就是一个向量。训练的时候输入都是已有word embedding中lexicon的单词，输入的ground truth是原始的向量。

这么做的目的是希望能够解决UNK（未登录词）的表示，它的理论假设是从字母组成语义是要遵循一系列的原则和规律，而这个双向RNN就是要学习这么一套原则，这样子见到UNK的时候就可以更好地猜出它的word embedding。

这种方法对于中文来说显得特别有效（文中提及），这可能是因为中文的基本元素是字，但是字已经带有语义信息了，普通的相加符合中文的组合逻辑，而英语的基本单位是字母，字母本身没有语义。由此想到是不是在中文里character-based Languange Model效果更好。

Blog

Papers

Mimicking Word Embeddings using Subword RNNs